Hierarchical semantic structures, naturally existing in real-world datasets, can assist in capturing the latent distribution of data to learn robust hash codes for retrieval systems. Although hierarchical semantic structures can be simply expressed by integrating semantically relevant data into a high-level taxon with coarser-grained semantics, the construction, embedding, and exploitation of the structures remain tricky for unsupervised hash learning. To tackle these problems, we propose a novel unsupervised hashing method named Hyperbolic Hierarchical Contrastive Hashing (HHCH). We propose to embed continuous hash codes into hyperbolic space for accurate semantic expression since embedding hierarchies in hyperbolic space generates less distortion than in hyper-sphere space and Euclidean space. In addition, we extend the K-Means algorithm to hyperbolic space and perform the proposed hierarchical hyperbolic K-Means algorithm to construct hierarchical semantic structures adaptively. To exploit the hierarchical semantic structures in hyperbolic space, we designed the hierarchical contrastive learning algorithm, including hierarchical instance-wise and hierarchical prototype-wise contrastive learning. Extensive experiments on four benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art unsupervised hashing methods. Codes will be released.
translated by 谷歌翻译
With the development of depth sensors in recent years, RGBD object tracking has received significant attention. Compared with the traditional RGB object tracking, the addition of the depth modality can effectively solve the target and background interference. However, some existing RGBD trackers use the two modalities separately and thus some particularly useful shared information between them is ignored. On the other hand, some methods attempt to fuse the two modalities by treating them equally, resulting in the missing of modality-specific features. To tackle these limitations, we propose a novel Dual-fused Modality-aware Tracker (termed DMTracker) which aims to learn informative and discriminative representations of the target objects for robust RGBD tracking. The first fusion module focuses on extracting the shared information between modalities based on cross-modal attention. The second aims at integrating the RGB-specific and depth-specific information to enhance the fused features. By fusing both the modality-shared and modality-specific information in a modality-aware scheme, our DMTracker can learn discriminative representations in complex tracking scenes. Experiments show that our proposed tracker achieves very promising results on challenging RGBD benchmarks. Code is available at \url{https://github.com/ShangGaoG/DMTracker}.
translated by 谷歌翻译
多次人类解析的现有方法通常采用两阶段的策略(通常是自下而上和自下而上),这遭受了对先前检测的强烈依赖,或者在集体后过程中高度计算的冗余。在这项工作中,我们使用代表性零件(称为Repparser)提出了一个端到端的多个人类解析框架。与主流方法不同,repparser以新的单阶段的方式解决了多个人的解析,而无需诉诸于人的检测或组后。为此,repparser将解析管道解析为实例感知的内核产生和部分意识到的人类解析,并将其分解为部分。分别负责实例分离和特定于实例的部分分割。特别是,我们通过代表性部分赋予解析管道的能力,因为它们的特征是通过实例感知关键点,并且可以用来动态解析每个人的实例。具体而言,代表性零件是通过共同定位实例中心和估计身体部位区域的关键来获得的。之后,我们通过代表性部分动态预测实例感知的卷积内核,从而将人零件的上下文编码为每个负责将图像特征施放为实例特定表示的内核。furthermore。采用多支出结构来分割每个实例 - 特定的表示单独的部分分割的几个部分感知表示。这样,以代表性零件的指导,重新集中在人实例上,并直接为每个人实例输出解析结果,从而消除了先前检测或发布的要求-grouping。在两个具有挑战性的基准上进行的扩展实验表明,我们提出的repparser是一个简单而有效的框架,并取得了竞争性的表现。
translated by 谷歌翻译
场景图生成(SGG)是一项基本任务,旨在检测图像中对象之间的视觉关系。流行的SGG方法要求在培训集中给出所有对象类。这样的封闭设置限制了SGG的实际应用。在本文中,我们介绍了开放式视频范围场景图生成,这是一种新颖,现实且具有挑战性的环境,其中模型在一组基本对象类上进行了训练,但需要推断出看不见的目标对象类的关系。为此,我们提出了一种两步方法,该方法首先对大量的粗粒区域捕获数据进行预先培训,然后利用两种基于及时的技术来验证预先训练的模型而无需更新其参数。此外,我们的方法可以支持对完全看不见的对象类的推论,而现有方法无法处理。在三个基准数据集(视觉基因组,GQA和开放图像)上进行的广泛实验,我们的方法在OV-SGG的设置以及常规的封闭SGG上明显优于最近的强大SGG方法。
translated by 谷歌翻译
由于与传统的基于RGB的跟踪相比,多模式跟踪的能力在复杂的情况下更准确和健壮,因此获得了关注。它的关键在于如何融合多模式数据并减少模式之间的差距。但是,多模式跟踪仍然严重遭受数据缺乏症的影响,从而导致融合模块的学习不足。我们没有在本文中构建这样的融合模块,而是通过将重要性附加到多模式的视觉提示中,为多模式跟踪提供了新的视角。我们设计了一种新型的多模式及时跟踪器(Protrack),可以通过及时范式将多模式输入传递到单个模态。通过最好地利用预先训练的RGB跟踪器在大规模学习的跟踪能力,我们的突起即使没有对多模式数据进行任何额外的培训,我们的突起也可以通过更改输入来实现高性能多模式跟踪。 5个基准数据集的广泛实验证明了所提出的突起的有效性。
translated by 谷歌翻译
对于黑盒攻击,替代模型和受害者模型之间的差距通常很大,这表现为弱攻击性能。通过观察到,可以通过同时攻击多样的模型来提高对抗性示例的可传递性,并提出模型增强方法,这些模型通过使用转换图像模拟不同的模型。但是,空间域的现有转换不会转化为显着多样化的增强模型。为了解决这个问题,我们提出了一种新型的频谱模拟攻击,以针对正常训练和防御模型制作更容易转移的对抗性例子。具体而言,我们将频谱转换应用于输入,从而在频域中执行模型增强。从理论上讲,我们证明了从频域中得出的转换导致不同的频谱显着图,这是我们提出的指标,以反映替代模型的多样性。值得注意的是,我们的方法通常可以与现有攻击结合使用。 Imagenet数据集的广泛实验证明了我们方法的有效性,\ textit {e.g。},攻击了九个最先进的防御模型,其平均成功率为\ textbf {95.4 \%}。我们的代码可在\ url {https://github.com/yuyang-long/ssa}中获得。
translated by 谷歌翻译
当前场景图(SGG)模型的性能受到难以弥补的谓词的严重阻碍,例如,女性与女性/站立/站立/步行。由于通用SGG模型倾向于预测头部谓词和重新平衡策略,因此偏爱尾巴类别,因此没有一个可以适当处理难以呈现的谓词。为了解决这个问题,受到细粒图像分类的启发,该图像分类的重点是区分难以弥补的对象,我们提出了一种自适应的细粒谓词学习(FGPL-A),旨在区分SGG难以区分的谓词。首先,我们引入了一个自适应谓词晶格(PL-A),以找出难以辨认的谓词,该谓词可以适应地探索与模型的动态学习步伐保持一致的谓词相关性。实际上,PL-A是从SGG数据集初始化的,并通过探索模型的当前迷你批量预测来完善。利用PL-A,我们提出了一个自适应类别区分损失(CDL-A)和一个自适应实体区分损失(EDL-A),该实体逐渐使模型的歧视过程逐渐使模型的歧视过程正规化,从而确保模型的动态学习状态,以确保平衡,有效,有效,有效,有效地进行了平衡,并确保了平衡和高效的模型。学习过程。广泛的实验结果表明,我们提出的模型不足的策略可显着提高VG-SGG和GQA-SGG数据集对基准模型的性能,最多可提高175%和76%的平均Recess@100,从而实现新的最新性能。此外,对句子到图形检索和图像字幕任务的实验进一步证明了我们方法的实用性。
translated by 谷歌翻译
基于骨架的动作识别旨在将骨骼序列投影到动作类别,其中骨骼序列源自多种形式的预测点。与较早的方法相比,该方法专注于通过图形卷积网络(GCN)探索单一形式的骨架,现有方法倾向于通过互补提示来利用多色骨架来改善GCN。但是,这些方法(GCNS的适应结构或模型集合的适应结构)都需要在训练和推理阶段共存所有形式的骨骼,而现实生活中的典型情况是仅存在推论的部分形式。为了解决这个问题,我们提出了自适应的交叉形式学习(ACFL),该学习促进了精心设计的GCN,以在不改变模型容量的情况下从单色骨架中生成互补的表示。具体而言,ACFL中的每个GCN模型不仅从单一形式的骨架中学习动作表示,而且还可以自适应地模拟从其他形式的骨骼中得出的有用表示。这样,每个GCN都可以学习如何增强所学的知识,从而利用模型潜力并促进行动识别。在三个具有挑战性的基准上进行的广泛实验,即NTU-RGB+D 120,NTU-RGB+D 60和UAV-Human,证明了该方法的有效性和普遍性。具体而言,ACFL显着改善了各种GCN模型(即CTR-GCN,MS-G3D和Shift-GCN),从而获得了基于骨架的动作识别的新记录。
translated by 谷歌翻译
场景图生成(SGG)代表对象及其与图形结构的交互。最近,许多作品致力于解决SGG中的不平衡问题。但是,在整个训练过程中低估了头部谓词,他们破坏了为尾部提供一般特征的头部谓词的特征。此外,对尾部谓词的过多注意会导致语义偏差。基于此,我们提出了一个新颖的SGG框架,学习以从头到尾生成场景图(SGG-HT),其中包含课程重新定位机制(CRM)和语义上下文上下文模块(SCM)。 CRM首先学习头/简单样品,以获得头部谓词的稳健特征,然后逐渐专注于尾部/硬质。建议通过确保在全球和局部表示中生成的场景图与地面真相之间的语义一致性来缓解语义偏差。实验表明,SGG-HT显着减轻了视觉基因组上最先进的表现。
translated by 谷歌翻译
零件级别的属性解析是一项基本但具有挑战性的任务,它需要区域级的视觉理解以提供可解释的身体部位细节。大多数现有方法通过添加具有属性预测头到两阶段检测器的区域卷积神经网络(RCNN)来解决此问题,其中从本地零件框中确定了身体部位的属性。但是,具有极限视觉线索的本地零件框(即仅零件外观)会导致不满意的解析结果,因为身体部位的属性高度依赖于它们之间的全面关系。在本文中,我们建议通过利用丰富的知识来识别嵌入式RCNN(KE-RCNN)来识别属性-hip)和显式知识(例如,``短裤''的一部分不能具有``连帽衫''或``衬里''的属性)。具体而言,KE-RCNN由两个新型组件,即基于隐式知识的编码器(IK-en)和基于知识的显式解码器(EK-DE)组成。前者旨在通过将部分的关系上下文编码到部分框中来增强零件级的表示,而后者则建议通过有关\ textit {part-attribute}关系的先验知识的指导来解码属性。这样,KE-RCNN就是插件播放,可以集成到任何两阶段检测器中,例如attribute-rcnn,cascade-rcnn,基于HRNET的RCNN和基于Swintransformer的RCNN。在两个具有挑战性的基准上进行的广泛实验,例如Fashionpedia和Kinetics-TPS,证明了KE-RCNN的有效性和概括性。特别是,它比所有现有方法都取得了更高的改进,在时尚Pedia上达到了3%的AP,而动力学TPS的ACC约为4%。
translated by 谷歌翻译